
王江平
全国政协委员
工业和信息化部原副部长
尊敬的各位专家,老师们,同学们,大家好!
非常高兴能参加本次会议,我今天分享的主题是《人工智能时代的数据治理——以工业数据为例》,主要从四个方面探讨数据治理问题。
人工智能发展需要高水平数据治理
(一)人工智能格局:中美引领,全球竞争
当前,全球人工智能发展呈现中美引领,主要国家激烈竞争的总体格局。我国的优势领域大家都比较清楚,包括产业规模、数据规模、专利申请量、“灯塔工厂”数量、数字基础设施水平、应用场景创新等,我不再赘述。劣势领域则体现为我国顶尖人才储备不足,智能芯片、高质量数据集、模型框架等底层技术存在短板,产业生态薄弱等方面。尽管DeepSeek模型呈现“鲶鱼效应”,但中美人工智能竞争格局并没有发生根本性改变。从创新点来看,DeepSeek进行了工程化创新,提高了算力效能,并且支持开源和本地化部署,这些是以往没有的,所以它是一条“鲶鱼”。但是,从构架、生态、算力以及数据集质量来看,竞争格局没有发生根本性变化。
(二)芯片差距导致算力短板
美国凭借高端芯片领域的垄断地位,掌握算力基础设施话语权。近年来,美国对我国技术和装备的出口管控,使我国芯片产业持续承压,影响算力建设,制约人工智能发展。综合施策,可以在一定程度上弥补我国算力短板。比如,加快芯片创新应用,我国集成电路发展非常迅速,已经从装备、EDA、材料、制造到封装,形成全产业链制造体系,尽管与先进水平仍有较大差距。建设“云边端”协同的强大算力网络;自主AI框架创新与生态建设;高质量数据供给等,有望在一定程度上弥补算力短板。
(三)数据潜力≠数据实力,加强数据治理刻不容缓
我国数据禀赋优异、潜力巨大,数据储量增速世界领先。但是,海量数据源头即弃,“数据富矿”沉睡于服务器中的问题突出,根据《全国数据资源调查报告(2023年)》,我国数据产存转化率仅为2.9%,未使用数据占比高达38.9%。
美国英文数据较多,而我国中文数据在全球占比数相对较少。我认为加强数据治理有利于,一是提升人工智能技术水平,抢占国际竞争制高点。二是促进“人工智能+”行动落地,特别是人工智能在垂直行业的应用水平。今年,中央明确了要开展“人工智能+”行动,各行各业都在做准备。当前,人工智能在解决一般性问题上有一定成效,但在专业性问题上仍有待提高,且存在幻觉问题。根据有关资料介绍,DeepSeek-R1亦存在一定幻觉问题。要做好“人工智能+”,必须在数据治理上下狠功夫。三是加强人工智能安全保障,夯实人工智能健康有序发展的基础。人工智能可能引发伦理和安全问题,需要通过训练、人机对齐等手段解决。若数据集不能体现社会主义核心价值观,则会带来突出的伦理和政治问题。比如,向DeepSeek提问政治问题,它基本不会回答,而ChatGPT能回答很多问题,但未必符合我国价值观。因此,无论是为了人工智能赋能经济社会发展,还是为了解决伦理安全问题,都需要加强数据治理。
人工智能时代的工业数据特征与治理挑战
(一)人工智能工具正在快速进入工业领域
随着通用人工智能迅猛发展,人工智能正在以不同方式和形态进入工业领域,推动工业企业生产方式、运营模式、业务形态发生深刻变革。
1. 大模型和小模型
大模型更多是综合性模型,处理复杂任务,需要综合分析时展现显著优势。小模型是场景化模型,实时性、轻量化部署。大小模型协同将是推动工业智能化发展的重要路径。
2. 智能体(AI Agent)
通过工具调用,多智能体协作等方式,对接入智能体的各种工业软件进行统一调度、管理、组合,协同完成生产任务。
3. 时序模型
该模型在流程性行业使用较多,特别是化工领域,其上下游关联度很高。时序模型基于海量工业数据进行训练,捕捉流程行业生产数据的内在规律,通过学习和调优实现预测、最优控制并辅助决策,提高生产效率和生产质量。可有效解决流程行业普遍存在的生产风险高,产品同质化竞争,效益波动大等问题。
4. 具身智能
具身智能将大模型的感知、学习、推理和认知能力融入各种形态的物理硬件,使软智能拥有一个硬身体。具身智能机器人实现了显著的智能增长,推动工业制造走向真正的无人化生产。比如,巡检机器人在电力行业得广泛应用。
(二)人工智能时代工业数据的新特征
一是来源广泛化。传统工业数据主要源于生产设备运行参数、产品质量检验等环节。智能设备和智能传感器产生、收集的数据。特殊领域数据稀缺和不均衡、数据隐私和安全保护等催生了仿真与合成数据。产业链上下游数据。产业链上下游各方主体的智能流通应用,使企业采集的数据来源和规模均呈爆发式增长态势。二是产生实时化。数据产生实时性强,数据处理高效及时。三是多模态融合。人工智能技术重构传统工业制造形态需要多方面数据,包括文字、数字、图表、图像、音频、视频等。比如,科大讯飞基于“工业六感”技术,打造“智能六感”智能传感器(视、听、嗅、味、触、思)共同对工厂运行情况进行实时监控,同时将数据传递到工业大脑有效控制生产。多模态数据融合为工业智能控制和决策提供全面支持。
四是存储的新要求。其一,大容量。人工智能赋能工业生产时,数据采集、清洗、处理、归一化、训练和应用阶段均会实时产生海量数据,对数据存储容量和模式提出更高要求。其二,分布式存储。集团企业间合作、产业链协作、业务数据分布式训练等对分布式存储技术提出新的需求。大量大型新能源汽车、钢铁等企业采用分布式存储技术存储生产数据,有效保证数据高效访问和高速流转。
五是安全性要求高。工业数据涉及企业核心竞争力,需要得到严密保护。在人工智能时代,攻击者可通过数据投毒、模型越狱、对抗样本等方式引导模型输出错误结果,进而影响决策分析,智能装备运转,供应链协同等业务开展,甚至可能导致数据和生产安全事件。
(三)工业数据行业管理现状
一是政策法规方面。《网络安全法》《数据安全法》《个人信息保护法》《网络数据安全管理条例》等法律法规的出台,为数据安全提供了基本法律框架。2022年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》的出台,奠定了数据要素市场基础制度体系的“四梁八柱”。同年,工信部印发实施《工业和信息化领域数据安全管理办法(试行)》,作为工信领域数据安全管理顶层设计,对国家数据安全管理制度进一步细化。2023年8月,财政部印发《企业数据资源相关会计处理暂行规定》,为企业数据资源的会计处理提供了明确的指导原则。2024年,国家数据局和工信部也分别出台一些细化政策,包括《关于促进企业数据资源开发利用的意见》《工业领域数据安全能力提升实施方案(2024-2026年)》等。
二是标准建设方面。工业领域已出台《工业领域数据安全标准体系建设指南(2023版)》,未来标准建设任重道远。
三是制度执行层面。部分大企业逐渐重视数据安全管理,逐步建立专门的数据安全管理部门或岗位,明确责任和权限。行业部门建立健全工业领域重要数据和核心数据识别报备机制,基本厘清工业数据底数,并开展数据监测。
(四)工业数据开发利用面临的挑战
一是工业数据治理难。一方面,工业数据获取难。与其他行业一样,“数据孤岛”问题突出。企业原有IT资产种类繁多,来源多样,协议标准不统一,异构性问题突出。另一方面,数据质量参差不齐。
二是工业数据确权难。一方面,一般数据确权难。另一方面,专属工业数据确权难。工业数据是企业核心竞争力,往往不愿意分享。另外,工业数据的生成、处理、使用等环节涉及众多主体,且专业性强,一般员工无法进行标注,导致数据权利主体的识别和界定困难。
三是工业数据加工成本高。石油、汽车、飞机等细分行业数据专业性强,导致数据标注难度大、专业标注能力供给不足。为满足大模型训练需要,要经常开展专门的数据标注,每次标注工作都要集中20~30位行业专家,成本高且效率低。目前,国内外人工智能企业利用自动化工具和人工审核结合的方式,探索降低数据标注成本的新路径。
四是工业数据安全风险突出。随着人工智能技术向工业领域加速渗透,伴随而来的风险暴露面持续扩大,高价值工业数据成为网络攻击窃取重点靶标,汽车、电子、软件、光伏等行业数据勒索、泄露、篡改风险事件层出不穷。参考平台监测数据,我国暴露于公网的数据资产超90万个,近三年工信领域数据安全风险信息报送与共享平台上通报处置的工业数据安全风险超7000起。
五是工业数据人才短缺。当前我国数据人才职业培养体系建立尚处于初步阶段,人才培训、认证、考核评价等权威性统一标准缺乏。据人社部有关报告测算,我国人工智能人才目前缺口超过500万,数字人口缺口更大。面向人工智能时代的工业数据应用,既懂行业、又懂数据分析,还懂人工智能技术的复合型人才更为紧缺。
人工智能时代的工业数据治理
(一)强化国家产业安全,建立三大安全保障机制
一是建立工业软件(工业模型)安全保障机制。聚焦产业安全发展需要,加强重点工业软件(工业模型)清单管理,指导开展工业软件(工业模型)安全性测试。二是健全工业数据安全保障机制。三是建立工业网络安全保障机制。深入实施工业互联网安全分类分级管理,强化工业控制系统网络安全防护能力评估,促进形成同新型工业化更相适应的网络安全保障能力。
(二)强化工业数据标准化建设,推动建设国家统一的工业大模型数据集
一是加快推进工业数据标准规范建设。坚持按需发展,急用先行,紧密贴合数据领域高质量发展需求,聚焦工业重点领域、典型场景和重要环节,研究制定数据资源管理、数据安全保障、数据基础设施建设、数据技术产品等相关标准规范,并强化推广应用。
二是建设国家统一的大模型数据集。大模型不仅是用于解决问题或写文章,而应该要解决深层次问题,特别是AI for Science在材料科学、化学和生物科学领域应用需要高水平数据集来支撑。因此,建议国家要高度重视数据集建设。
(三)指导企业深化经营管理
建立工业数据质量、安全保障体系,积极开展数据价值挖掘和应用。包括打造工业数据质量管理体系,建立工业数据安全保障体系,开展工业数据价值挖掘和应用。
(四)以数据资产入表为切入点,推动数据资产化建设
当前,数据资产入表存在诸多难题和阻碍,关键在于入表形式问题。比如,在未交易前的数据计量方式(成本法或其他方法)、交易后的收益法及具体操作等问题。要推动企业从战略、技术、流程、人员等多方面入手推动数据资产入表,以确保数据资产价值最大化,从而以点带面破解难题。
(五)强化数据可信流通,构筑一体贯通的数据流动共享应用链条
一方面,构建基于区块链技术的数据可信流通体系。积极探索可信工业数据空间建设,提高数据流通交易效率和安全性。大力发展高性能智能合约、多链组网架构、异构跨链交互、链上链下交互等关键技术,加快高效率区块链数据确权技术研发应用。
另一方面,建立数据模型应用分享机制。明确各方数据模型分享要求和激励措施,激发共享开放动力,释放数据模型应用价值。
总结
(一)数据作为人工智能核心要素之一,在算力瓶颈短期难以解决的情况下,高水平数据治理成为发展人工智能的关键所在,加强数据治理刻不容缓。
(二)人工智能时代的工业数据,呈现出来源广泛化、产生实时化、多模态融合、存储要求高、安全性要求高等新特征,面临数据治理难、数据确权难、数据加工成本高、数据安全风险高以及人才短缺等诸多挑战。
(三)数据治理要统筹发展与安全,关键是建立安全保障机制、推动数据标准化建设、深化数据价值挖掘、强化数据资产化以及强化数据可信流通。
以上就是我的分享内容,如有不足之处,请大家批评指正,谢谢!